OpenUni开源上线:多模态理解生成新标杆
你有没有想过,一个AI模型能同时听懂你的描述,又能画出你想象的画面?最近,arXiv上一篇未发表的论文《OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
你有没有想过,一个AI模型能同时听懂你的描述,又能画出你想象的画面?最近,arXiv上一篇未发表的论文《OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
凌晨三点的手机屏幕还亮着,指尖划过的每一帧画面都在讲述当代人的生存状态:短视频里摇晃的红酒杯折射着都市夜归人的孤独,旅游打卡照上的滤镜掩盖不住高原反应的潮红,宠物视频弹幕堆叠的颜文字背后是年轻人对情感联结的渴望。这个被图像与文字编织的数字丛林里,一场关于人工智
在日常交流中,我们不仅通过言语传递信息,还通过面部表情、点头或摇头等非语言线索表达情感和态度。当我们与朋友交谈时,这种多维度互动似乎是自然而然的,但要让人工智能系统实现类似的交流能力,却是一项极具挑战性的任务。
模态 kaust团队 kaust omniresponse 2025-06-05 23:56 10
当前人工智能快速发展的时代,多模态大语言模型(MLLMs)正成为研究的热点。2025年5月,一个由布朗大学、Salesforce AI研究院、NVIDIA研究院等多家顶尖机构组成的研究团队在arXiv上发表了题为《MoDoMoDo: Multi-Domain
2025年5月26日,arXiv上一篇尚未发表的论文像一粒火星,点燃了机器人领域的新期待。标题里那个拗口的EMAC+,其实是项突破性技术的代号——它让机器人第一次真正实现了“眼脑并用”。
在2025年6月发布于arXiv预印本平台的一项最新研究中,由俄亥俄州立大学的万忠伟(Zhongwei Wan)领衔,联合来自凯斯西储大学、帝国理工学院、杜克大学等多家知名院校的研究团队开发了一种名为SRPO的创新技术。这项研究的全称是"SRPO: Enhan
2022年到2025年,全球AI论文总量翻了十五倍,但有个有趣的现象:专门研究大语言模型缺陷的论文数量增长更快,达到28倍。这个发现来自我刚读过的arXiv预印本研究,他们从25万篇论文里筛出了14,648篇聚焦模型缺陷的论文,发现人类对AI的「找茬」速度远超
优点:正交性(能量守恒)、紧支撑(局部性好);适合处理平滑信号。
近日,昆仑万维公司震撼发布了天工超级智能体(Skywork Super Agents),这一创新产品不仅率先在网页端亮相,迅速引爆市场,而且紧接着在APP端也正式上线,标志着全球首个基于AI Agent架构的Office智能体全面进军移动端,开启了生产力革命的
2025年6月6日-7日,第7届北京智源大会将以线上+线下联动的形式召开,4位图灵奖获得者演讲,30余位AI企业创始人&CEO分享,100余位全球青年科学家报告,两天会议将密集开展180余场人工智能主题演讲,在思辨与实证的交织中,为 AI 的未来绘制航图。报名
AIGC(人工智能生成内容)是人工智能技术发展到新阶段的重要产物,它借助机器学习、深度学习等技术手段,实现了从数据输入到内容输出的自动化与智能化。与传统内容创作模式相比,AIGC具有三大核心特征:
随着生成式AI的发展,社会符号学视角下的多模态话语研究迎来了新的机遇与挑战。本文通过梳理国内外多模态研究的新进展,探讨AI技术在社会符号学研究中的应用及其影响。研究表明,AI在弥补多模态话语研究方法论不足的同时,有助于促进多模态语类创新,并推动社会符号学理论向
《高工智能汽车研究院》监测数据,2024年中国市场(不含进出口)乘用车前装标配智能座舱(联网大屏/多屏娱乐+智能语音交互)搭载率升至72.58%,预计2025年将跨域80%大关。这个过程中,包括各类智能硬件、AR HUD、域控制器等细分赛道均进入了快速增长周期
这项研究由耶鲁大学的Jiwan Chung、Junhyeok Kim、Siyeol Kim、首尔国立大学的Jaeyoung Lee以及耶鲁大学的Minsoo Kim和Youngjae Yu共同完成,于2025年5月24日发表在arXiv预印本平台上(arXiv
在互联网世界中,验证码(CAPTCHA)就像是网站的门卫,守护着网络服务不被机器人滥用。然而,对于那些旨在自动化网页任务的人工智能助手来说,这些验证码却成了一道难以逾越的障碍。2025年5月,来自MBZUAI(穆罕默德·本·扎耶德人工智能大学)VILA实验室和
计算机辅助设计(CAD)是现代工程和制造业的核心,它让我们能够创建精确且可编辑的3D模型。然而,手动创建CAD模型需要专业技能和大量时间。如何让计算机自动从现有物体中重建CAD模型,一直是研究人员追求的目标。2025年5月,来自AIRI研究院、莫斯科罗蒙诺索夫
基于国产三维云架构CAD皇冠CAD(CrownCAD)平台,构建了“大模型底座-多模态智能体-行业应用”三层AI创新体系,为机械制造、航空航天、汽车电子等七大领域提供全链路智能化解决方案。
近日,AI领域再度传来重磅消息。新型社交平台Soul App的技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generat
国泰海通发布研报称,维持传播文化业“增持”评级,建议关注具备优秀产品布局和潜力的公司。2024年以来,随着AI技术完善和趋于稳定,在应用端的效果也开始有所体现,部分赛道和产品已经有初步成绩。AI应用发展经历了“纯文字-静态图像/声音-动态视频”的过程,赛道也相
在视觉多模态大语言模型的快速发展中,幻觉问题一直是研究者们关注的焦点。模型生成与输入图像不一致甚至虚假的内容,不仅影响用户体验,也阻碍了多模态技术在实际场景中的落地。对此,微软亚洲研究院和香港中文大学的联合研究团队从直接偏好优化(DPO)入手,提出了 On-P